Národní úložiště šedé literatury Nalezeno 20 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Rozpoznávání řeči pro vybrané jazyky
Schmitt, Jan ; Karafiát, Martin (oponent) ; Janda, Miloš (vedoucí práce)
Tato práce se zabývá rozpoznáváním spojité řeči pro trojici jazyků bulharštinu, chorvatštinu a švédštinu. Zpráva popisuje základy zpracování a rozpoznávání řeči, tvorbu akustických modelů pomocí skrytých Markovových modelů a směsi gaussovských rozložení a použití těchto technik pro rozpoznávání řeči v toolkitu Kaldi. Další součástí práce je postup přípravy dat pro toolkity pro rozpoznávání řeči HTK a Kaldi na základě dat z databáze GlobalPhone. V závěru jsou vytvořené modely otestovány pomocí testovacích dat a porovnány výsledky z jednotlivých modelů.
Klávesnice pomocí pohledu
Sznapka, Jakub ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce)
Cílem bakalářská práce je vytvoření nástroje pro psaní pohledem. Zabývá se problematikou snímání pohledu a jeho vyhodnocováním. Obsahuje popis metody Swype, která se používá při psaní na dotykových displejích. Následuje rozbor různých způsobů, pomocí kterých je možné modelovat jazyk, který nástroj používá. Hlavní část práce se věnuje samotnému návrhu nástroje, jenž umožňuje psaní pohledem a jeho implementaci za pomoci toolkitu Kaldi. 
Rekurentní neuronové sítě pro rozpoznávání řeči
Nováčik, Tomáš ; Karafiát, Martin (oponent) ; Veselý, Karel (vedoucí práce)
Tato diplomová práce se zabývá implementací rekurentních neuronových sítí v prostředí jazyka lua za pomocí knihovny torch. Řeší problematiku trénování rekurentních neuronových sítí a to jak z hlediska optimální trénovací strategie, tak z hlediska urychlení trénovacího procesu. Zkoumá zakomponování technik batch normalizace a dropout do architektur rekurentních neuronových sítí. Jednotlivé typy rekurentních sítí jsou následně porovnány na úkolu rozpoznávání řeči prostřednictvým datové sady AMI, kde slouží pro modelování akustického modelu, a dochází ke srovnání s klasickou dopřednou neuronovou sítí. Nejlepší výsledek je dosažen prostřednictvým rekurentní neuronové sítě BLSTM. Následně dojde k natrénování rekurentních neuronových sítí prostřednictvím objektivní funkce CTC na databázi TIMIT, kde nejlepšího výsledku opět dosáhne BLSTM.
Topic Identification from Spoken TED-Talks
Vašš, Adam ; Ondel, Lucas Antoine Francois (oponent) ; Kesiraju, Santosh (vedoucí práce)
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
Zobrazení a analýza aktivit neuronové sítě ve skrytých vrstvách
Fábry, Marko ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
Cílem této práce je vytvořit systém schopný zobrazení hodnot aktivačních funkcí neuronů nacházejících se v skrytých vrstvách neuronových sítí použitých na rozpoznávání řeči. Dále byly na tomto systému provedeny experimenty porovnávající vizualizační metody, vizualizace neuronových sítí s různými architekturami a s různými druhy vstupních dat. Vizualizační systém implementovaný v rámci této práce je založen na předchozí práci pana Khe Chai Sim a rozšířen o nové způsoby normalizace vstupních dat. Pro přípravu trénovacích dat neuronových sítí byl použit framework Kaldi. Pro samotné trénování neuronových sítí byl použit nový framework CNTK. Jádro práce - samotný vizualizační systém byl implementován v skriptovacím jazyce Python.
Low-Dimensional Matrix Factorization in End-To-End Speech Recognition Systems
Gajdár, Matúš ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.
Semi-Supervised Training of Deep Neural Networks for Speech Recognition
Veselý, Karel ; Ircing, Pavel (oponent) ; Lamel, Lori (oponent) ; Burget, Lukáš (vedoucí práce)
In this thesis, we first present the theory of neural network training for the speech recognition, along with our implementation, that is available as the 'nnet1' training recipe in the Kaldi toolkit. The recipe contains RBM pre-training, mini-batch frame Cross-Entropy training and sequence-discriminative sMBR training. Then we continue with the main topic of this thesis: semi-supervised training of DNN-based ASR systems. Inspired by the literature survey and our initial experiments, we investigated several problems: First, whether the confidences are better to be calculated per-sentence, per-word or per-frame. Second, whether the confidences should be used for data-selection or data-weighting. Both approaches are compatible with the framework of weighted mini-batch SGD training. Then we tried to get better insight into confidence calibration, more precisely whether it can improve the efficiency of semi-supervised training. We also investigated how the model should be re-tuned with the correctly transcribed data. Finally, we proposed a simple recipe that avoids a grid search of hyper-parameters, and therefore is very practical for general use with any dataset. The experiments were conducted on several data-sets: for Babel Vietnamese with 10 hours of transcribed speech, the Word Error Rate (WER) was reduced by 2.5%. For Switchboard English with 14 hours of transcribed speech, the WER was reduced by 3.2%. Although we found it difficult to further improve the performance of semi-supervised training by means of enhancing the confidences, we still believe that our findings are of significant practical value: the untranscribed data are abundant and easy to obtain, and our proposed solution brings solid WER improvements and it is not difficult to replicate.
Topic Identification from Spoken TED-Talks
Vašš, Adam ; Ondel, Lucas Antoine Francois (oponent) ; Kesiraju, Santosh (vedoucí práce)
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6\%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
The Best Possible Speech Recognizer on Your Own Data
Sýkora, Tomáš ; Veselý, Karel (oponent) ; Szőke, Igor (vedoucí práce)
Many state-of-the-art results in different machine learning areas are presented on day-to-day basis. By adjusting these systems to perform perfectly on a specific subset of all general data, huge improvements may be achieved in their resulting accuracy. Usage of domain adaptation in automatic speech recognition can bring us to production level models capable of transcribing difficult and noisy customer conversations way more accurately than the general models trained on all kinds of language and speech data. In this work I present 17% word error rate improvement in our speech recognition task over the general domain speech recognizer from Google. The improvement was achieved by both very precise annotation and preparation of domain data and by combining state-of-the-art techniques and algorithms. The described system was successfully integrated into a production environment of the Parrot transcription company, where I am a member of the initial team, which drastically increased performance of the human transcribers.
Forced Alignment via Neural Networks
Beňovič, Marek ; Kofroň, Jan (vedoucí práce) ; Hnětynka, Petr (oponent)
Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1

Národní úložiště šedé literatury : Nalezeno 20 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.